Nous allons décider de filtrer sur la durée entre 60 min et 180 minutes pour éviter les valeurs abbérantes.

On décide de prendre les films entre les années 1990 jusque 2020 pour avoir un large choix de film après nos filtres.

Nous voyons gràce à ce graphique que le genre "Comedy" est trés bien représenté dans cette base de données. Pour les genres "Crime" et "Thriller", la proportion est plus ou moins équivalente.

Pour cette analyse, nous procédons à un échantillonnage car il n'est pas praticable de générer des visualisations directes sur notre data frame actuel. Ce dernier contient contient un nombre important de lignes à cette étape. L'objectif de cette visualisation est d'évaluer si les films ayant reçu les meilleures notes bénéficient d'un nombre de votants suffisant pour garantir l'intégrité de la note finale. Nous observons qu'à mesure que les films obtiennent des notes plus élevées, le nombre de votants augmente (on peut les qualifier de films 'populaires'). Ainsi, il semble judicieux de restreindre notre sélection aux films ayant obtenu des notes de 7 et plus, étant donné que ceux-ci sont plus susceptibles d'avoir un nombre de votants significatif. Cette approche réduit le risque de biais dans notre analyse en se concentrant sur des films bien notés et également populaires.

Ce graphique nous confirme notre décision de prendre tous les films dont la note est supérieur 7.

On peut voir que la répartition des films sur les années et la durée est plutôt bien équilibrée. La majorité des films ont une note entre 7 et 8. Le nombre de votants et les recettes sont très regroupés dans les premières valeurs et sont éparpillés.

Nous pouvons voir que nous n'avons plus aucune valeur manquante dans notre dataset.